【客户】江苏农信:基于实时数据的客户风险态势感知
项目背景及目标
项目方案
一、项目整体架构如下:
项目整体架构如上图所示,源端通过数据库采集工具从数据库抽取日志或者从外部数据平台获取消息,通过安全认证后,进入到消息接入控制模块,注册元数据信息,并在Web控制台中管理。经过数据解析工具将日志转换成相应的格式接入数据总线,经过处理挖掘模块处理后,将结果集推送到实时数据集市或知识图谱集群,用于实时查询分析和知识图谱的使用;或者通过数据订阅功能推送到客户风险态势感知平台。
其中数据处理挖掘模块是整个架构中最核心、最复杂的部分,流处理引擎包含轻度事件处理(关联、存在、差值等)、复杂事件处理、AI模型调用和定时调度工作,以灵活适应不同场景的业务需求。在知识图谱集群中通过批处理和流处理结合的方式,应用社区算法、PageRank等算法加工完成,形成全面、实时的客户标签、关联关系、担保圈链等,在客户风险态势感知过程中,知识图谱集群交互,以判断客户的风险影响和扩展情况,最终将客户本身风险以及扩展风险传导到应用平台,让用户第一时间全面高效地管控风险。
实时数据中台包含实时数据采集、传输、交换、处理、分析、挖掘、展现、订阅等功能。其中,
(1)实时数据采集用于采集各类实时产生的数据,比如数据库层面、应用层面、网络层面的旁路复制,用于同步收集数据库日志数据、应用日志数据、应用推送消息、网络包、文件、大报文、半结构化和非结构化数据等,通过简单灵活的配置,以非侵入方式实时采集各类数据,并具备对源端的故障检测和故障切换能力。
(2)实时数据传输能够提供以总线的形式进行数据传输,实现“一次采集,多次消费”的传输方式,传输效率高,能够进行大报文的传输(30M以内),保证传输消息顺序,具备缓冲和峰值处理能力,支持扩展和容灾等。
(3)实时数据交换根据数据类型进行分区规划,对数据报文具有前置校验功能,对各类数据进行接入和交换管理,能够分析数据交换的影响,比如生产者数据发生变化之后对哪些消费者会产生影响,影响什么,同时具备管理监控功能的Web控制台,来支持管控数据交换上下游的上述要素。
(4)实时数据处理能够提供多种数据处理引擎,提供可视化的数据操作环境,自带丰富的数据ETL、CEP算子,调用机器学习的模型接口,进行实时模型应用,同时能够提供数据流作业的定时调度,可以对数据进行实时同步和简单预处理。能够提供具备开发调试、上线部署和监控管理实时处理作业等功能的一体化平台。
(5)实时数据分析能够将数据流实时加载到MPP、大数据平台等数据载体的同时,支持业务人员对MPP、大数据平台中的数据或与流数据进行关联的实时分析,实时分析的内容包含不限于简单的SQL统计、轻量的BI分析等。
(6)实时数据挖掘能够提供规则引擎和算法库的功能,用户可以自由的集成业务规则和算法,轻松实现流上的业务分析和配置管理等,同时支持发布模型调用接口,让业务系统进行实时的模型应用。
(7)实时数据展现支持报表展示,利用报表工具,将日常经营类等报表加入到展现端,方便管理人员和业务人员进行查看。系统支持PC端、手机端、平板端进行查看。展示的能力应不弱于当下主流的报表工具。
(8)实时数据订阅能够提供便捷的实时数据接入方式,提供数据格式注册、Rest API风格的数据访问服务,支持不同数据源的消息订阅,便于消费方的数据消费。
创新点
一、填补实时风控的空白,全面提升风险防控能力。
此项目将之前的T+1数据处理方式演进为对T+0的数据进行处理,提升了数据时效性,进一步拓展了数据运用场景。以项目中实现的逾期欠息或核销客户及其担保人的存款账户实时监控功能模块为例,项目将把当前风险预警的处理模式由T+1提升到T+0,从而有效提高风险预警的时效性,即当目标客户的存款流入后,第一时间发送提示,生成处置流程,从而提升清收效率,为更好地开展不良清降工作提供系统支撑。
二、创新性建设实时数据中台,较好地解决实时数据的采集、处理、使用等问题。
项目中包含完整的数据处理中台的架构和实现,通过根据规划为实时数据采集、传输、交换、处理、分析、挖掘、展现、订阅八大功能,为实时应用提供基础集成服务、公用服务、服务管理功能,实现实时数据的“一次采集,个性消费”。
目前基本实现八大功能中的采集、传输、交换、处理、订阅等功能,其中,实时数据采集实现了从大机、开放平台的DB2、ORACLE等数据库中数据的实时采集;实时数据传输通过KAFKA作为数据传输的总线,实现了数据高速、安全、可扩展、高可用的传输;数据交换,通过Kafka Connect、Schema Registry等部件集成,实现了服务准入、认证、控制等交换过程的控制;实时数据处理通过集成Flink、KSQL、Slip stream等多套实时数据处理框架,实现可根据业务场景和时间要求,灵活选择不同的架构,从而提高开发效率,降低开发成本;实时数据订阅,实现各应用系统通过页面配置即可从现有的主题中订阅相关实时数据。
三、创新性将实时数据处理与知识图谱等多种应用结合,全面提升数据业务价值。
由于客户不断下沉、信息不对称的日益增加,利用知识图谱能够快速、系统、全面地展现客户的内外部信息、关联关系、担保圈链以及风险标签,并按照既定路径进行风险传导和预警,解决基层行社在信贷“三查”过程中由于信息不对称造成的误判。通过与实时数据的结合,如通过对舆情、资金交易、关联方等内外部数据整合,对客户风险的扩展和传播进行实时研判,提升了业务模型和知识图谱的价值,充分达到“1+1>2”的效果。
技术实现特点
本项目技术架构如下:
由于内容较多,现将关键功能说明如下:
(1)数据库日志采集:通过复制数据库日志的方式,实现数据库的复制,对于核心、网银等关键业务系统以及其他的业务系统中实时性关注度高少数交易进行数据库同步,而不影响到交易系统的性能。支持配置化参数调整数据库日志采集方式,比如是否支持update、truncate操作等。支持续传和定点采集的功能,对于中断后的日志和指定时间戳的日志支持同步。
(2)流处理引擎:通过集成Flink、KSQL、Slip stream等多套实时数据处理框架,实现可根据业务场景和时间要求,灵活选择不同的架构,进行统计分析和高效处理,满足低延时业务场景的需求。从而提高开发效率,降低开发成本。以KSQL为例,KSQL基于Apache Kafka的流式SQL引擎。提供了一个简单的、完全交互式的SQL接口,支持广泛的流处理操作,包括聚合、连接、窗口、会话等,具有功能强大,轻量级,分布式处理,有容错机制等特性。
(3)实时数据传输:通过Kafka发布/订阅功能使得发送者和接收者之间的耦合关系变得更为松散;通过Kafka Rest Proxy对生产者系统进行权限控制,防止系统的非法接入;接入标准控制,保证写入的数据符合设计的规范,负责请求过滤和转发以及负载均衡。通过Schema Registry为元数据提供服务层,存储Schema,提供了序列化器,同时也支持对Kafka数据的存储和检索。通过Console界面配置参数,暴露接口给应用层,即可直接对接下游应用,获取数据。
(4)知识图谱:使用图数据的方式存储和分析知识图谱,在图存储中使用灵活而丰富的存储模型,通过业务垂直分解的方案解决存储容量和效率的问题,加入高可靠的容错机制,以及高可用的系统架构设计,能够在亿边的数据规模下,提供毫秒级的实时点、边查询。在图分析中可以快速的进行复杂关系查找,支持实时的数据插入和更新,同时实现了PageRank、FastUnfolding等常见图算法,可以轻松处理亿级别的图算法,并提供简洁的SQL调用方法。
以上技术特点总结为:
(1)低延迟。提升数据时效性,加强实时数据的分析和服务能力,充分发挥数据价值,满足不同业务场景下对T+0数据的使用需求,提升用户体验。
(2)高吞吐。支持高流量的数据采集、传输和处理,弥补现有技术方案传输大文件、半结构化和非结构化数据等的不足。构建大数据量下的数据处理通道和流程,提升实时数据的服务能力。
(3)低耦合。保持系统间相互独立,通过接口调用满足系统间依赖。尽量减少对现有业务系统的修改,通过灵活的配置和接口,使用无侵入的方式感知数据变化,对数据进行采集和格式标准化处理,降低个别系统变化带来的影响和提升数据质量。
(4)高可用。充分考虑功能失效、系统错误带来的影响,具备灾难恢复的解决方案。采用分布式的先进架构,借助节点冗余和数据多备份等技术,避免单点故障和减少人工干预。提升业务系统各个层次的容灾能力和稳定性。
(5)可扩展。满足数据日益丰富和丰富带来新的要求,具有横向扩展的特性,可以线性提高数据传输、处理、存储和服务的能力,适应业务变化和保障新型业务系统建设。
项目过程管理
本项目按照CMMI3章程实施,现将项目各阶段实施情况说明如下:
在省联社的精心组织和各部门、基层农商行紧密协作下,本项目于2018年7月份立项,9月份完成需求分析,10月到次年3月份完成系统设计、开发测试、集成测试,3到4月份完成用户测试,系统于5月投产上线,经过1个月的上线试运行,系统保持稳定运行状态。在此过程中,项目制定推广方案,编写培训材料,于2019年上半年完成了全省推广使用。
运营情况
本项目满足了项目建设目标要求,提升了农商行风险防控的水平,为综合应用实时数据处理技术进行风险防控的首例,为将来进一步提升数据时效性,发挥数据价值提供了借鉴和参考。
项目实施满足需求范围,主要实现的功能有实时数据中台、知识图谱分析和风险态势感知系统,建设包括实时逾期欠息客户及其担保人清收管理、关联图谱、客户贷前风险报告、客户实际控制人、受益人分析、实时风险传导感知等一系列功能模块。
项目建设首次引入大数据进行实时风险防控的概念,进一步提升了基层农商行的风险管控的水平。系统上线后运行良好。顺利度过试运行阶段,并与2019年上半年完成了全省推广工作。系统推广培训工作有条不紊的开展,确保系统的顺利使用和与信贷系统的无缝衔接,上线后得到了各农商行支行网点一线员工的充分认可。
自系统正式推广以来,共有2万个用户登录并使用系统,登录总计达78.7万次。截止目前共触发信号133种,占总设置信号数量比例为83%。信号产生数量约为136万个。目前系统与信贷、贷审2个业务系统进行交互。信贷系统和贷审系统使用风险信息探测和贷前准入报告查询接口,交互次数达到115万次。
项目成效
一、经济效益
(1)实时逾期欠息客户账户资金监控:进一步提升数据的时效性,完善逾期欠息账户资金扣划操作规程,用于实时清收部分逾期欠息贷款,为不良贷款清降提供了有力的技术支撑。从实时逾期欠息客户账户监控及清收情况分析,例如从9月13日至9月底,监测到有资金流入的逾期欠息客户及其担保人共1160人,涉及不良资产总计31.89亿,提示实时流入金额总计3.82亿元。以在某行逾期金额为1500万元的某某客户为例,在9月14日下午14:58-15:20短短20分钟之内,在我行账户中资金流入了958万元,由于系统的准确及时的提示,相关人员及时开展清收工作,不良贷款得到了有效地清降。
(2)实时风险态势传导分析:主要是在贷款“三查”流程中,根据系统提示的风险传导,发现客户存在失信行为、行政处罚和欠税公告等情况,及时掌握借款人是否存在失信行为、其他银行有无不良贷款和银监预警信息等情况以及对关联方的影响,分别采取资产保全、压降存量贷款或取消新增授信等,有效防范信贷资产风险。截止目前共触发信号133种,占总设置信号数量比例为83%。信号产生数量约为136万个,按照预警主体来分,其中信用卡类信号23.8万个,信贷类信号102.4万个,担保圈类信号9.8万个。按预警类型来分,提示类信号59万个,监控类信号12.8万个,预警类型号64.2万个,其中预警类信号根据预警等级分为红橙黄三类,红色信号17万个,橙色信号4.6万个,黄色信号42.6万个。
二、社会效益
各农商行以客户风险态势感知系统为抓手,执行明确的风险信号处置和解除的流程,配套相应的组织架构,强化系统在信贷全流程应用考核措施,严把客户准入关,增加了对系统信号处置的考核指标,注重客户风险的处置时效、内容和质量,对解除理由严格把关并在流程中留有“痕迹”,为农商行的风险管控提供了坚强的支撑,为农商行的商务转型发展保驾护航,为社会的诚信体系建设,为江苏省经济转型和稳定发展贡献了一份力量。
经验总结
此项目内容丰富,创新性强,项目周期较长,实施难度较大,在项目建设过程中积累了不少经验教训,主要总结为以下两点:
一是提前规划,逐项攻破。此项目中存在不少技术难点以及创新之处,这些方面对项目的成败有着至关重要的影响。为了减少项目的风险,在前期论证阶段,项目组对项目中存在的风险点进行了认真细致地梳理和分析,并通过原型实验的方式对这些风险点进行了实实在在的论证风险,虽然投入了一点的工作量,但是对项目后期的帮助较大。以实时数据采集为例,如何合理设计规划主机到实时大数据平台的数据复制通道成为技术论证的关键。
考虑以下四点要求:一是数据复制链路满足实时数据平台的业务需求,二是新搭建数据复制链路对现有业务影响最小,三是HA以及有效的监控管理,四是复制链路架构的灵活性和可扩展性。最终通过严谨地论证,项目组采用了适合江苏省联社现有架构的方案。目前整体架构运行良好,并且经过了两次结息的考验。
二是“解耦再解耦”。此项目实施范围大,项目成员较多,项目和蓝领外包人员混杂,沟通成本较高,管理难度较大。鉴于此种情况,项目组在项目初期通过启动会的形式,与各方明确项目目标,使项目各方对项目目标、边界等重要内容有良好的认识。接着,通过集中办公的形式,解决沟通成本过高,项目人员混杂的问题。
在项目管理的过程中,使用敏捷项目管理方法,以实现业务价值为导向,将大模块分解成小模块,在技术和业务层面双重解耦,将系统功能微服务化,通过系统功能的编排组装实现业务价值。事实表明,专注价值,降低耦合性,对后期的高效项目实施帮助很大。
TDH TDC Sophon 流式计算 图数据库 闪存数据库